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Résumé - Cet article est basé sur l'algorithme du point proximal. Nous étudions deux algorithmes itératifs: l'algorithme de Blahut-Arimoto 
communément utilisé pour le calcul de la capacité des canaux discrets sans mémoire puis le décodage itératif pour les modulations codées à 
bits entrelacés. Dans les deux cas, il s'agit d'algorithmes itératifs pour lesquels les méthodes de type point proximal conduisent à une nouvelle 
interprétation et ouvrent la voie à des améliorations en terme de vitesse de convergence notamment. 



Abstract - This paper recalls the proximal point method. We study two itérative algorithms: the Blahut-Arimoto algorithm for Computing 
the capacity of arbitrary discrète memoryless channels, as an example of an itérative algorithm working with probability density estimâtes and 
the itérative decoding of the Bit Interleaved Coded Modulation (BICM-ID). For thèse itérative algorithms, we apply the proximal point method 
which allows new interprétations with improved convergence rate. 



1 Introduction 

Cet article s'intéresse à deux algorithmes itératifs classiques : 
l'algorithme de Blahut-Arimoto |1, 2] pour le calcul de la ca- 
pacité d'un canal discret sans mémoire et le décodage itératif 
des modulations codées à bits entrelacés (BICM-ID) [3]. Bien 
que ces méthodes soient radicalement différentes à la fois par 
l'application visée et aussi par le processus itératif mis enjeu, 
elles ont pour point commun de présenter des connections avec 
une méthode d'optimisation bien connue, la méthode du point 
proximal (4). 

En 1972, R. Blahut et S. Arimoto (TJ [21 ont montré comment 
calculer numériquement la capacité des canaux sans mémoire 
avec des entrées et des sorties à alphabets finis. Depuis, plu- 
sieurs extensions ont été proposées citons notemment 1 5 ] qui a 
étendu l'algorithme de Blahut-Arimoto aux canaux avec mémoire 
et entrées à alphabets finis et O qui a considéré des canaux 
sans mémoire avec des entrées et/ou des sorties continues. 
En parallèle, d'autres travaux se sont concentrés sur l'interprétation 
géométrique de l'algorithme de Blahut-Arimoto |7|. En se ba- 
sant sur cette dernière approche, Matz [ 8 ] a proposé une version 
modifiée de cet algorithme qui converge plus vite que l'algo- 
rithme standard. 

L'algorithme proposé par Matz est basé sur une approximation 
d'un algorithme de point proximal. Nous proposons donc dans 
ce qui suit une vrai reformulation point proximal avec une vi- 
tesse de convergence plus grande comparée à celle de l'algo- 



rithme classique de Blahut-Arimoto ainsi qu'à celle de l'ap- 
proche dans l8l . 

D'autre part, les modulations codées à bits entrelacés (BICM) 
ont été d'abord proposés par Zehavi (9) pour améliorer la per- 
formance des modulations codées en treillis dans le cas des ca- 
naux de Rayleigh à évanouissement. Le décodage itératif ifTOl 
utilisé pour les BICM a une structure similaire à celle d'un 
turbo décodeur série. Bien que très performant, le décodage 
itératif n'a pas été à l'origine introduit comme solution d'un 
problème d'optimisation, ce qui rend difficile l'analyse de sa 
convergence. 

Cet article va donc mettre en évidence le lien existant entre ces 
deux algorithmes itératifs et montrer comment cela conduit à 
des améliorations substantielles tout en révélant le lien existant 
entre le décodage itératif et les techniques classiques d'optimi- 
sation. 

2 Algorithme du point proximal 

L'algorithme du point proximal, dans sa version d'origine, 
est caractérisé par le processus itératif [1 1 j : 



0(*+i) = argmax{£(<9) - (3 k \\6 - 6> (/c) || 2 } 



(1) 



dans lequel £(0) est la fonction de coût qui croît au fil des 
itérations et ||0 — 0^ || 2 est un terme de pénalité qui assure que 
la nouvelle valeur du paramètre reste dans le voisinage de la va- 
leur obtenue à l'itération précédente. {/3k}k>o est une séquence 



de paramètres positifs, lorsque la séquence /3k converge vers 
zéro à l'infini, alors la méthode présente une convergence super- 
linéaire fT2l . L' algorithme du point proximal peut être généralisé 
selon : 

= argmax {^) _ p k f(0M k) )} 
9 

où f(0, 9^) est toujours non négative et /(0, 0^) = si et 
seulement si 6 = 6^ k \ Dans la suite, nous utiliserons cette for- 
mulation en considérant pour / soit la divergence de Kullback 
soit la divergence de Fermi-Dirac. Nous rappelons maintenant 
leurs définitions. 

La distance de Kullback-Leibler (KLD) est définie pour deux 
distributions de probabilité p = {p(x), x G X} et g = {q(%), % £ 
X} d'une variable aléatoire discrète X prenant ses valeurs x 
dans un ensemble discret X par : 



D(p\\ q ) = J2p(*)log^ 



xex 

La distance de Kullback (appelée aussi entropie relative) a deux 
propriétés importantes : D(p\\q) est toujours non-négative, et 
D(p\\q) est nulle si et seulement si p = q. Cependant, ce n'est 
pas une "vraie" distance puisqu'elle n'est pas symétrique 
(D(p\\q) ^ D(q\\p)) et ne satisfait pas en général l'inégalité 
triangulaire. 

La divergence de Fermi-Dirac est la divergence de Kullback- 
Leibler appliquée à des probabilités sur des événements n'ayant 
que deux issues, elle est définie pour deux distributions de pro- 
babilité n = Pr(xï = 1) et Si = Ps(xi = 1) définies dans 
l'ensemble X = . . . , x n ) avec X{ E {0, 1} de la manière 
suivante : 

D FD (r, s) = £r=i n log (fi) + £r=i(l - n) log (±=*) 
La divergence de Fermi-Dirac présente les deux mêmes pro- 
priétés que la distance de Kullback : D^(r,s) est toujours 
non négative et Dfe>(t : s) = si et seulement si r = s. La 
divergence de Fermi-Dirac n'est pas symétrique. 

3 Méthode de point proximal pour les 
algorithmes itératifs 



3.1 
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interprétation point proximal 
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Figure 1 - canal. 

Considérons un canal discret sans mémoire avec pour entrée 
X prenant ses valeurs dans l'ensemble {^o, . . . , xm} et en sor- 
tie Y prenant ses valeurs dans l'ensemble {yo, . . . , i/n}- Ce ca- 
nal est défini par sa matrice de transition Q telle que [Q]ij = 
Q ilj =Pr(Y = y l \X = x 3 ). 

Nous définissons aussi pj = Pr(X = Xj) et qi = Pr(Y = 
yi). L'information mutuelle est donnée par : I(X,Y) = I(p,Q) = 



EjioE*^oPi^b lo S^r = T,¥=oPj D (Qj\\Q) et la capa- 
cité du canal par : 

C = max/(p, Q) 

p 

En résolvant ce problème de maximisation et en prenant en 
compte la condition de normalisation, nous obtenons le pro- 
cessus itératif : 

p^(x)eMD k x ) 



p 



^\x)- 



(2) 



avec D k = D(p(Y = y\X = x)\\p(Y = y^)). C'est l'algo- 
rithme de Blahut-Arimoto. On peut montrer sans difficulté que 
cet algorithme est équivalent à : 

p^ k+1 \x) = argmax{I^(p(x)) - D(p(x)\\p w (x))} (3) 
p 

où (p(x)) = E p ( x ^{D k }. Cet algorithme n'est pas un algo- 
rithme du point proximal puisque la fonction de coût 1^ (p(x) ) 
dépend des itérations. Il est toutefois possible d'exprimer l'in- 
formation mutuelle comme suit : 

I(p(x)) = /<*>(?(*)) - D(q(y)\\qW(y)) (4) 
En introduisant © dans (0, nous obtenons : 

p {k+1 \x) = argmax{/(p(x))-( J D(p(x)|b (fc) (a ; ))- J D( (Z (y)||g (fc) (y)))} 

P 

D'après l'inégalité de Jensen, nous pouvons montrer que le 
terme de pénalité 

D{p{xW k \x)) - D{q{y)\\é k \y)) = 

n p{x)Y,îP{y\x)p {k \x) 
p{x ' v)l g P ^(x)E s P(y\x)p(x) 1 

est toujours positif et qu'il est nul si et seulement si 
p(x) = (x) et q(y) = (y). 
Le processus itératif devient alors : 

p (fe+1) (x) = a rgm^{I(p(x))-/3 k {D(p(x)\\p W 

A chaque itération, l'expression de (x) est la même que 

dans ([2]). L'algorithme de Blahut-Arimoto s'interprète donc comme 
un algorithme du point proximal dans lequel le paramètre /3k 
est constant et égal à 1 . 

L'approche intuitive de Matz [ 8] consiste à remplacer la distri- 
bution de probabilité q(y) dans le terme de droite de l'équation 
précédente par la même distribution q^ (y) calculée à l'itération 
précédente. 

Nous allons maintenant utiliser le degré de liberté supplémentaire 
amené par /3k pour augmenter la vitesse de convergence. Nous 
choisissons /3k comme suit : 

maxf3 k (D(/ k+1 Hx)\\p^(x)) - D( 9 (fe+1) (y) |k (fc) (?/))) 

Pk 

dans lequel (x) et (y) dépendent de /3k. Cela gua- 

rantie que I(p^ k+1 \x)) — I(p^ k \x)) est maximale à chaque 
itération. Pour résoudre ce problème de maximisation, nous 
avons utilisé la méthode de gradient conjugué qui donne la va- 
leur de Pk la plus convenable en comparaison avec l'approche 
proposée par Matz. 



FIGURE 2 - Canal discret binaire symétrique. 



B = (Bo, Bi, B 2 at_i) t de dimension 2 N x N est la ma- 
trice de la représentation binaire de tous les mots de longueur 
N. Soit ï] la fonction densité de probabilité de la variable x = 
B^. On a donc 

V = (Pr[ X = Bo], Pr[ X = B 1 ], Pr[ X = B 2N _ 1 ]) T 

Etant donné une fonction densité de probabilité r\, ses coor- 
données logarithmiques sont le vecteur 6 dont le i eme élément 
est donné par 0* = ln(Pr[x = Bi]) - ln(Pr[x = B ]). 
Nous définissons aussi A le vecteur des ratio dont l'élément 
j est défini par Àj = Zq^( p^|^~q| ) où Xj est I e j eme bit du 
mot binaire x et A G R N . Pour des densités séparables, c'est à 
dire qui sont égales au produit des marginales, les coordonnées 
logarithmiques prennent la forme 6 = BA 1 13 ]. 

3.2.1 Décodage itératif des modulations codées à bits en- 
trelacés 
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FIGURE 4 — Codeur des modulations codées à bits entrelacés. 



FIGURE 3 - Canal Gaussian Bernouilli-Gaussian ayant comme pa- 
ramètres (p — 0.3, a h — 0.01, g g — 1). 



3.1.1 Simulation 

Nous testons les 3 algorithmes itératifs sur un canal discret 
binaire symétrique défini par sa matrice de transition : 



f 0.7 0.2 0.1 \ 
Q ~ \ 0.1 0.2 0.7 J 



0.2 0. 
0.2 0. 

Les résultats (figEl montrent que la capacité du canal est at- 
teinte après 20 itérations dans le cas classique, 7 itérations dans 
l'approche de Matz et 4 itérations dans notre cas (avec une 
précision de 10 -11 ). 

Nous comparons ensuite notre algorithme et celui de Matz 
dans le cas d'un canal Gaussian Bernouilli-Gaussian dans le 
but de former une matrice Q avec de grandes dimensions. Un 
tel canal est défini par : yk = Xk + bk + Jk où 

- b~X(0,a 2 b ) 

- 7fc = ekgk avec e : séquence de Bernouilli(p) 

- g ~ J\f(0,Œg) avec 
d'où 



al <C a 2 g 



avec 



Vk = %k + n k 



p(n k ) = (l-p)M(0,a 2 b ) +pAT(0,a, 2 



2 1 cri) 



La sortie yk a été discrétisée sur 40 valeurs, et l'entrée Xk sur 
10 valeurs. Les résultats sont reportés sur la figure Nous ob- 
servons encore un gain conséquent grâce à notre approche. 

3.2 Outils de base 

Nous introduisons tout d' abord quelques notations. Soit G 
{0, 1}^ la représentation binaire d'un entier z, < i < 2 N ~ 1 . 
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FIGURE 5 — Décodeur itératif des modulations codées à bits entrelacés. 

Le décodage itératif pour les modulations codées à bits en- 
trelacées est constitué de deux blocs chacun ayant pour tâche 
d'évaluer des probabilités a posteriori. Le premier bloc (de- 
mapping) contient les informations concernant le mapping et le 
canal au travers de la loi de probabilité p(y\s) où y est le vec- 
teur reçu et s un vecteur de symbole. Ce bloc reçoit un a priori 
(aussi appelé extrinsèque) qui lui est fourni par l'autre bloc. Il 
est donc en mesure de fournir des probabilités à posterori que 

nous noterons p B A 1+ ^ m où (Ai) fcm+i = ln est 
le vecteur contenant les log-ratio de la probabilité a priori fT3ll . 
Le vecteur 6 m est le vecteur de coordonnées logarithmiques 
obtenu à partir de p(y\s). Le second bloc contient les informa- 
tions correspondant au codeur au travers de la fonction indica- 
trice du code. Ce second bloc fournit les probabilités a poste- 
riori sur les bits £>ba 2 +6> c où À2 dépend de l'a priori à l'entrée 
du bloc et C est le vecteur de coordonnées logarithmiques ob- 
tenu à partir de la fonction indicatrice du code lfT3l . Par ailleurs, 
l'a priori du bloc suivant est calculé en divisant la probabilité 
a posteriori du bloc précédent par l'a priori qu'il a reçu (pro- 
pagation d'extrinsèques). Ce principe peut être résumé par le 
processus itératif : 

Trouver A 2 ^ +1 ^ telle que P B(A ( k)+A ( k+ D ) = P BA « +flm (5) 
Trouver Ài<* +1 > telle que Pb^+d+^+D) = P^ x ^) + e c < 6 > 



Ce processus itératif correspond à la résolution du problème de 
minimisation suivant : 
Au niveau du demapping 

min D FD (p BAl +# m , Pb(Ai+a 2 ) ) 

À 2 

Au niveau du décodeur 

min D FD (pba 2 +0 c , Pb(Ai+a 2 ) ) 

Ai 

Une solution est satisfaisante si elle répond aux deux critères 
simultanément. 

Cependant la minimisation de l'un de ces critères n' entraine 
pas forcément la diminution de l'autre critère à l'itération sui- 
vante. On peut donc craindre un comportement de l'algorithme. 
La méthode du point proximal permet de faire le lien entre les 
deux critères via le terme de pénalité qu'elle introduit. Nous 
obtenons alors un nouveau processus de minimisation : 



A 



(k+l) 



min J(9 m (Ai, A 2 ) = min D FD (p BXl +e m , Pb(Ai+a 2 )) 

A 2 A 2 

+/i m £>FD (P B(A 00 +A 2 k) ) ' PB(Ai+A 2 ) ) 

A i k+1) = min j0 c (Ai,A 2 ) = minL> FjD (p B A 2 +0 c , Pb(à 1 +à 2 )) 

Ai 

+^ C DfD (P B (A< k) +A 2 k+1) ) ' PB(Ai+A 2 ) ) 

' telle que 

PBA< k) +0 m + ^PB(Ai k) +A 2 k) ) 



Cela revient à trouver A 2 k+1 ^ telle que 



P B (Ai k) +A 2 k+1) ) 

et A^ k+1) telle que 



PB(A^ k+1) +A 2 k+1) ) 



1 + Mm 

PBA 2 k+1) +^ c + ^ c PB(A( k) +A 2 k+1) ) 
1 + /i c 



(7) 



(8) 



A la convergence, on retrouve les mêmes points stationnaires 
que pour ([5]) et ©. Pour assurer la décroissance des fonctions 
de coût, nous choisissons /i m et /i c afin que 

^(Arvr i} )<JUAr^ k+i) ). 

La première inégalité est équivalente à 

J9 m (^\X ( 2 +1) ) < î^(^(P BA ( k ) + , m ,P B(A ( k ) +A ( k)) ) + 

^ ) fd(p b(a w +a ^) ) , p BA ^ k)+ ^ m )) car la distance de Fermi-Dirac 
est convexe par rapport à son deuxième paramètre. D'autre part 

^(Pba^+^'Pbia^+a^)) - J ^ c ( A i k) ' A 2 k) ) 

D'après ces deux relations, nous obtenons une borne supérieure 

pour /i m : 



Mm < 



Dfd ( p B A 2 k) +e c ; Pb ( A^ k) + A 2 k) ) ) 

V FD - ^FD(p BA (k) + ^,P B(A (k) +A ( k)) ) 



où V FF > est une distance symétrique : 

V FD = ^ FD (p BA ( k)+0m ,p B(A ( k)+A (ic) ) ) 

+ D FD (p B(A w +A w ) , P BA w +0m ) 

La borne supérieure pour /i c peut être obtenue d'une façon si- 
milaire. En itérant et {3]) avec fi c et /i m choisis correcte- 
ment nous obtenons un algorithme qui converge vers les même 
points que le décodage itératif classique (et qui a donc les mêmes 
performances en terme de taux d'erreur binaire) tout en dimi- 
nuant au fil des itérations un critère désiré. 



4 Conclusion 

Dans cet article, nous avons d'abord mis en évidence l'algo- 
rithme itératif du point proximal. Nous avons ensuite présenté 
deux algorithmes itératifs différents à la fois par l'application 
visée et le processus itératif mis enjeu : l'algorithme itératif de 
Blahut-Arimoto et l'algorithme de décodage itératif des modu- 
lations codées à bits entrelacés. Une interprétation de ces deux 
algorithmes basée sur la méthode de point proximal a donc été 
proposée appuyée par des résultats de simulation. 
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